ACII情感声音爆发研讨会和竞争的重点是理解声乐爆发的多个情感维度:笑声,喘息,哭泣,尖叫声以及许多其他非语言声音,这是情感表达和人类交流的核心。今年的比赛包括四首曲目,使用1,702位扬声器的大规模和野外数据集提供59,299个发声。首先是A-VB高任务,要求竞争参与者使用十个类似的注释的情感表达强度,对情感进行新型模型进行多标签回归,包括:敬畏,恐惧和惊喜。第二个是A-VB-TWO任务,利用更传统的二维模型来进行情感,唤醒和价值。第三个是A-VB文化任务,要求参与者探索数据集的文化方面,培训本地国家依赖模型。最后,对于第四个任务,A-VB型,参与者应认识到声乐爆发的类型(例如,笑声,哭泣,咕unt)是8级分类。本文介绍了使用最先进的机器学习方法的四个轨道和基线系统。每条轨道的基线性能是通过使用端到端深度学习模型获得的,如下所示:对于A-VB-高,平均(超过10维)一致性相关系数(CCC)为0.5687 CCC为获得;对于A-VB-TWO,获得了0.5084的平均值(超过2维);对于A-VB培养物,从四个培养物中获得了0.4401的平均CCC;对于A-VB型,来自8类的基线未加权平均召回(UAR)为0.4172 UAR。
translated by 谷歌翻译
ICML表达性发声(EXVO)的竞争重点是理解和产生声音爆发:笑声,喘息,哭泣和其他非语言发声,这是情感表达和交流至关重要的。 EXVO 2022,包括三个竞赛曲目,使用来自1,702位扬声器的59,201个发声的大规模数据集。首先是Exvo-Multitask,要求参与者训练多任务模型,以识别声音爆发中表达的情绪和人口特征。第二个,即exvo生成,要求参与者训练一种生成模型,该模型产生声音爆发,传达了十种不同的情绪。第三个exvo-fewshot要求参与者利用少量的学习融合说话者身份来训练模型,以识别声音爆发传达的10种情感。本文描述了这三个曲目,并使用最先进的机器学习策略为基线模型提供了绩效指标。每个曲目的基线如下,对于exvo-multitask,一个组合得分,计算一致性相关系数的谐波平均值(CCC),未加权的平均召回(UAR)和反向平均绝对错误(MAE)(MAE)($ s_ {mtl) } $)充其量是0.335 $ s_ {mtl} $;对于exvo生成,我们报告了Fr \'Echet Inception距离(FID)的得分范围为4.81至8.27(取决于情绪),在训练集和生成的样品之间。然后,我们将倒置的FID与生成样品的感知评级($ s_ {gen} $)相结合,并获得0.174 $ s_ {gen} $;对于Exvo-Fewshot,获得平均CCC为0.444。
translated by 谷歌翻译
尽管深度算法音乐生成的进步,但生成样本的评估通常依赖于人类评估,这是主观和昂贵的。我们专注于设计一个均匀的客观框架,用于评估算法生成的音乐样本。评估生成音乐的任何工程措施通常都会尝试定义样本的音乐性,但不会捕获音乐的品质,例如主题或情绪。我们不寻求评估生成音乐的音乐优点,而是探索生成的样本是否包含有关情绪或情绪/主题的有意义的信息。我们通过测量与生成的样本增强其培训数据后测量音乐情绪/主题分类器的预测性能的变化来实现这一目标。我们分析三个模型生成的音乐样本 - Samplernn,Jukebox和DDSP - 并在所有方法中使用同类框架,以允许客观的比较。这是第一次尝试使用有条件生成的音乐增强音乐类型分类数据集。我们使用深度音乐生成和发电机通过使用数据集的额外情感注释来制作情绪音乐的能力来调查分类性能改进。最后,我们使用在真实数据上培训的分类器来评估类条件生成的样本的标签有效性。
translated by 谷歌翻译
Previous work has shown the potential of deep learning to predict renal obstruction using kidney ultrasound images. However, these image-based classifiers have been trained with the goal of single-visit inference in mind. We compare methods from video action recognition (i.e. convolutional pooling, LSTM, TSM) to adapt single-visit convolutional models to handle multiple visit inference. We demonstrate that incorporating images from a patient's past hospital visits provides only a small benefit for the prediction of obstructive hydronephrosis. Therefore, inclusion of prior ultrasounds is beneficial, but prediction based on the latest ultrasound is sufficient for patient risk stratification.
translated by 谷歌翻译
Transfer operators offer linear representations and global, physically meaningful features of nonlinear dynamical systems. Discovering transfer operators, such as the Koopman operator, require careful crafted dictionaries of observables, acting on states of the dynamical system. This is ad hoc and requires the full dataset for evaluation. In this paper, we offer an optimization scheme to allow joint learning of the observables and Koopman operator with online data. Our results show we are able to reconstruct the evolution and represent the global features of complex dynamical systems.
translated by 谷歌翻译
Realizing when a model is right for a wrong reason is not trivial and requires a significant effort by model developers. In some cases, an input salience method, which highlights the most important parts of the input, may reveal problematic reasoning. But scrutinizing highlights over many data instances is tedious and often infeasible. Furthermore, analyzing examples in isolation does not reveal general patterns in the data or in the model's behavior. In this paper we aim to address these issues and go from understanding single examples to understanding entire datasets and models. The methodology we propose is based on aggregated salience maps. Using this methodology we address multiple distinct but common model developer needs by showing how problematic data and model behavior can be identified -- a necessary first step for improving the model.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
创伤后应激障碍(PTSD)是一种长期衰弱的精神状况,是针对灾难性生活事件(例如军事战斗,性侵犯和自然灾害)而发展的。 PTSD的特征是过去的创伤事件,侵入性思想,噩梦,过度维护和睡眠障碍的闪回,所有这些都会影响一个人的生活,并导致相当大的社会,职业和人际关系障碍。 PTSD的诊断是由医学专业人员使用精神障碍诊断和统计手册(DSM)中定义的PTSD症状的自我评估问卷进行的。在本文中,这是我们第一次收集,注释并为公共发行准备了一个新的视频数据库,用于自动PTSD诊断,在野生数据集中称为PTSD。该数据库在采集条件下表现出“自然”和巨大的差异,面部表达,照明,聚焦,分辨率,年龄,性别,种族,遮挡和背景。除了描述数据集集合的详细信息外,我们还提供了评估野生数据集中PTSD的基于计算机视觉和机器学习方法的基准。此外,我们建议并评估基于深度学习的PTSD检测方法。提出的方法显示出非常有希望的结果。有兴趣的研究人员可以从:http://www.lissi.fr/ptsd-dataset/下载PTSD-in-wild数据集的副本
translated by 谷歌翻译
行星漫游者任务必须利用基于机器学习的感知来继续发生地球外探索,几乎没有人类的存在。火星地形细分对于漫游车导航和避免危害至关重要,以执行进一步的探索性任务,例如土壤样品收集和寻找有机化合物。当前的火星地形细分模型需要大量标记的数据才能实现可接受的性能,还需要重新培训以在不同域中的部署,即不同的漫游者任务或不同的任务,即地质识别和导航。这项研究提出了一种半监督的学习方法,该方法利用了骨干的无监督对比度预处理,用于对火星表面的多效率语义分割。该模型将通过使用混合域训练套件来确保具有多样性的混合域训练套件,从而扩展到当前的火星分割能力,以便在不同的火星漫游者任务中部署以进行地形导航。使用平均像素精度的评估结果表明,与单个领域训练和监督培训相比,半监督的混合域方法通过达到火星科学实验室的好奇心漫游者的精度为97%,MARS 2020 Perseverance Perseverance Rover提高了精度。 。此外,使用召回度量与标准的跨透镜损失相比,使用召回度量的损失功能提供不同的权重方法将对少数族裔或稀有类别的模型提高了30%以上。这些结果可以以数据效率的方式为Rover任务提供未来的多任务和多任务语义细分。
translated by 谷歌翻译
随着深度学习的进步,演讲者的验证取得了很高的准确性,并且在我们日常生活中的许多场景中,尤其是Web服务市场不断增长的一种生物识别验证选项,成为一种生物识别验证选项。与传统密码相比,“人声密码”更加方便,因为它们可以减轻人们记住不同密码的记忆。但是,新的机器学习攻击使这些语音身份验证系统处于危险之中。没有强大的安全保证,攻击者可以通过欺骗基于深神经网络(DNN)的语音识别模型来访问合法用户的Web帐户。在本文中,我们证明了对语音身份验证系统的易于实现的数据中毒攻击,这几乎无法通过现有的防御机制来捕获。因此,我们提出了一种更强大的防御方法,称为“卫报”,该方法是基于卷积神经网络的歧视者。监护人歧视者整合了一系列新型技术,包括减少偏见,输入增强和集成学习。我们的方法能够将约95%的攻击帐户与普通帐户区分开,这比仅准确性60%的现有方法更有效。
translated by 谷歌翻译